Les grands modèles linguistiques (LLM) représentent le summum de la technologie actuelle de l'intelligence artificielle, démontrant une capacité extraordinaire à comprendre et à générer du texte. Leur compétence en matière de raisonnement textuel leur permet de saisir le contexte des documents et de fournir des réponses logiques et cohérentes. Cependant, malgré cette sophistication, ces mêmes modèles rencontrent souvent des obstacles insurmontables lorsqu'ils sont confrontés aux problèmes mathématiques ou logiques les plus simples. Le paradoxe réside dans le fait que le raisonnement textuel, leur force fondamentale, est souvent un outil inadapté pour résoudre des tâches de calcul ou algorithmiques.
Bien que certains LLM avancés, tels que GPT-4, soient capables de générer du code de programmation dans des langages comme Python pour résoudre des requêtes symboliques, un défi majeur demeure : les modèles ne savent pas toujours quand il est approprié d'utiliser du code au lieu du texte, ni quel type de code serait le plus efficace pour un problème donné. Il semble que ces puissants modèles linguistiques aient besoin d'une sorte d'« entraîneur » ou de « mentor » pour les guider vers la technique de résolution de problèmes optimale. C'est précisément là qu'intervient une solution innovante du Massachusetts Institute of Technology (MIT).
Un assistant intelligent pour les modèles linguistiques
Des chercheurs du MIT ont développé un système appelé CodeSteer, un assistant intelligent conçu pour guider un grand modèle linguistique dans le processus de choix entre la génération de texte et de code de programmation jusqu'à ce qu'il parvienne à la solution correcte d'une requête. CodeSteer, qui est lui-même un modèle linguistique plus petit et spécialisé, fonctionne en générant automatiquement une série d'instructions (prompts) pour guider de manière itérative le travail d'un LLM plus grand et plus puissant. Après chaque étape, CodeSteer analyse les réponses actuelles et précédentes du modèle et fournit des directives pour corriger ou améliorer la solution, poursuivant ce processus jusqu'à ce qu'il juge la réponse correcte et complète.
Cette approche s'est avérée extrêmement fructueuse. La recherche a révélé que le fait de compléter un LLM plus grand avec le système CodeSteer augmentait sa précision sur les tâches symboliques de plus de 30 %. Les tâches testées comprenaient un large éventail de problèmes, allant de la multiplication de nombres et de la résolution de puzzles Sudoku à des tâches logiques comme l'empilement de blocs. Il est également significatif que ce système ait permis à des modèles moins sophistiqués de surpasser des modèles plus avancés dotés de capacités de raisonnement améliorées, mais sans guidage externe.
Cette avancée a le potentiel d'améliorer considérablement les capacités de résolution de problèmes des LLM, en particulier pour les tâches complexes qu'il est extrêmement difficile de résoudre uniquement par le raisonnement textuel. Des exemples de telles tâches incluent la génération de trajectoires pour les robots dans des environnements incertains ou l'optimisation des horaires d'expédition au sein d'une chaîne d'approvisionnement internationale complexe.
« Nous assistons à une course au développement de modèles toujours meilleurs capables de tout, mais nous avons adopté une approche complémentaire », a déclaré Chuchu Fan, professeure agrégée d'aéronautique et d'astronautique (AeroAstro) et chercheuse principale au Laboratoire des systèmes d'information et de décision (LIDS) du MIT. « Les chercheurs ont passé des années à développer des technologies et des outils efficaces pour résoudre des problèmes dans de nombreux domaines. Notre objectif est de permettre aux LLM de choisir les bons outils et méthodes et de tirer parti de l'expertise des autres pour améliorer leurs propres capacités. »
Le travail scientifique sur cette recherche, qui sera présenté à la Conférence internationale sur l'apprentissage automatique, inclut, aux côtés de la professeure Fan, l'étudiant diplômé du LIDS Yongchao Chen, l'étudiant diplômé d'AeroAstro Yilun Hao, l'étudiante diplômée de l'Université de l'Illinois à Urbana-Champaign Yueying Liu, et le scientifique du MIT-IBM Watson AI Lab, Yang Zhang.
Comment fonctionne l'« entraîneur » pour un LLM ?
Pour comprendre le problème que CodeSteer résout, il suffit de poser une question simple à un LLM : quel est le plus grand nombre, 9.11 ou 9.9 ? En utilisant le raisonnement textuel, le modèle donnera souvent la mauvaise réponse. Cependant, si on lui demande d'utiliser du code de programmation pour la réponse, il générera et exécutera un simple script Python pour comparer les deux nombres et parviendra sans problème à la bonne solution.
Parce qu'ils ont été initialement entraînés à comprendre et à prédire le langage humain, les LLM sont plus enclins à répondre aux requêtes en utilisant du texte, même lorsque le code serait nettement plus efficace. Bien qu'ils aient appris à générer du code grâce au processus de réglage fin (fine-tuning), ils génèrent souvent une version incorrecte ou moins efficace du code requis.
Au lieu d'essayer de ré-entraîner de puissants LLM comme GPT-4 ou Claude pour améliorer ces capacités, ce qui est un processus extrêmement coûteux et complexe, les chercheurs du MIT ont opté pour une solution plus fine. Ils ont affiné un modèle linguistique plus petit et « plus léger » qui sert de guide au modèle plus grand, le dirigeant entre le texte et le code. Le réglage fin du plus petit modèle ne modifie pas l'architecture fondamentale du LLM plus grand, éliminant ainsi le risque de nuire à ses autres capacités déjà perfectionnées.
« Nous nous sommes également inspirés des humains. Dans le sport, un entraîneur n'est peut-être pas meilleur que le joueur vedette de l'équipe, but il peut quand même donner des conseils utiles pour guider l'athlète. Cette méthode de guidage fonctionne aussi pour les LLM », explique Yongchao Chen.
Cet « entraîneur », CodeSteer, travaille en tandem avec le LLM plus grand. Il examine d'abord la requête et détermine si le texte ou le code est plus approprié pour résoudre le problème et quel type de code serait le meilleur. Il génère ensuite une instruction spécifique (prompt) pour le LLM plus grand, lui ordonnant d'utiliser une méthode de codage particulière ou un raisonnement textuel. Le modèle plus grand suit cette instruction, génère une réponse et la renvoie à CodeSteer pour vérification. Si la réponse n'est pas correcte, CodeSteer continue de générer de nouvelles instructions, encourageant le LLM à essayer différentes approches qui pourraient résoudre le problème. Cela peut inclure, par exemple, l'intégration d'un algorithme de recherche ou d'une contrainte spécifique dans le code Python, jusqu'à ce qu'un résultat correct soit atteint.
« Nous avons découvert que le LLM plus grand essaiera souvent d'être "paresseux" et d'utiliser un code plus court et moins efficace qui n'effectuera pas le calcul symbolique correct. Nous avons conçu CodeSteer pour éviter ce phénomène », ajoute Chen. Pour garantir la qualité, le système comprend également un « vérificateur symbolique » qui évalue la complexité du code généré et envoie un signal à CodeSteer si le code est trop simple ou inefficace. De plus, les chercheurs ont intégré un mécanisme d'auto-vérification des réponses, qui incite le LLM à générer du code supplémentaire pour calculer la réponse et ainsi confirmer son exactitude.
Faire face à des tâches complexes et créer de nouvelles références
Lors du développement du système CodeSteer, l'équipe de recherche a été confrontée à un défi inattendu : le manque d'ensembles de données (datasets) appropriés pour le réglage fin et le test du modèle. La plupart des références (benchmarks) existantes ne spécifiaient pas si une requête particulière pouvait être mieux résolue par du texte ou du code. Par conséquent, les chercheurs ont dû créer leur propre ressource.
Ils ont collecté un corpus de 37 tâches symboliques complexes, comprenant le raisonnement spatial, les mathématiques, le raisonnement logique sur l'ordre et l'optimisation, et sur cette base, ils ont construit leur propre ensemble de données appelé SymBench. Ils ont mis en œuvre une approche de réglage fin qui utilise SymBench pour maximiser les performances de CodeSteer.
Dans les expériences, CodeSteer a surpassé les neuf méthodes de base avec lesquelles il a été comparé et a augmenté la précision moyenne de 53,3 % à un impressionnant 86,4 %. Il a montré des performances similaires même sur des tâches qu'il n'avait jamais vues auparavant, ainsi que sur différents types de grands modèles linguistiques. De plus, un modèle à usage général amélioré par CodeSteer peut atteindre une précision plus élevée que les modèles de pointe spécifiquement conçus pour le raisonnement et la planification complexes, et ce, avec une consommation de calcul nettement inférieure.
« Notre méthode utilise les propres capacités du LLM. En dotant le LLM de la capacité d'utiliser intelligemment le codage, nous pouvons prendre un modèle déjà très puissant et améliorer encore ses performances », souligne Chen.
Des experts extérieurs à l'équipe du MIT ont également reconnu l'importance de cette réalisation. Jinsung Yoon, scientifique chez Google Cloud AI, qui n'a pas participé aux travaux, a commenté : « Les auteurs présentent une solution élégante à un défi clé de l'utilisation d'outils dans les LLM. Cette méthode simple mais percutante permet aux LLM de pointe d'obtenir des améliorations de performance significatives sans nécessiter de réglage fin direct. »
Chi Wang, scientifique senior chez Google DeepMind, qui n'a pas non plus participé à la recherche, partage un avis similaire. « Leur succès dans l'entraînement d'un modèle plus petit et spécialisé pour guider stratégiquement des modèles plus grands et avancés est particulièrement percutant. Cette collaboration intelligente entre différents "agents" d'IA ouvre la voie à des applications plus robustes et polyvalentes dans des scénarios complexes du monde réel. »
Pour l'avenir, les chercheurs prévoient d'optimiser davantage CodeSteer pour accélérer son processus itératif de fourniture d'instructions. De plus, ils explorent comment affiner efficacement un modèle unique qui aurait la capacité intrinsèque de basculer entre le raisonnement textuel et la génération de code, plutôt que de s'appuyer sur un assistant distinct. Cette recherche, soutenue en partie par le Bureau américain de la recherche navale et le MIT-IBM Watson AI Lab, représente une étape importante vers la création d'une intelligence artificielle plus polyvalente et plus fiable.
Greška: Koordinate nisu pronađene za mjesto:
Heure de création: 4 heures avant